MLOps-Data Jouney & Storage

Data Jouney & Storage


ML Metadata

ML Service의 규모와 수가 증가함에 따라 Data의 법적 책임도 매우 중요해지고 있다. 따라서 Data의 lineage나 provenance를 trace back하는것은 매우 중요한 task이다

Metadata는 ML Production lifecycle에서 artifact나 pipeline변화를 tracking하는데에 많은 도움을 준다.

Metadata는 다양한 pipeline components나 실행사항, artifacts 등 많은 정보를 포함하고 있어서 추후에 예상치 못한 pipeline 과정 중의 error를 디버깅하는데에 도움을 줄 수 있다. 즉 일종의 Log같은 개념이다.



연관글

Mapping raw data into feature

Feature engineering techniques

Scaling

Facets

Embedding projector

Encoding features

TFX:

  1. https://www.tensorflow.org/tfx/guide#tfx_pipelines
  2. https://ai.googleblog.com/2017/02/preprocessing-for-machine-learning-with.html

Breast Cancer Dataset